AI methods are used in societally important settings, ranging from credit to employment to housing, and it is crucial to provide fairness in regard to algorithmic decision making. Moreover, many settings are dynamic, with populations responding to sequential decision policies. We introduce the study of reinforcement learning (RL) with stepwise fairness constraints, requiring group fairness at each time step. Our focus is on tabular episodic RL, and we provide learning algorithms with strong theoretical guarantees in regard to policy optimality and fairness violation. Our framework provides useful tools to study the impact of fairness constraints in sequential settings and brings up new challenges in RL.
translated by 谷歌翻译
A reconstruction attack on a private dataset $D$ takes as input some publicly accessible information about the dataset and produces a list of candidate elements of $D$. We introduce a new class of data reconstruction attacks based on randomized methods for non-convex optimization. We empirically demonstrate that our attacks can not only reconstruct full rows of $D$ from aggregate query statistics $Q(D)\in \mathbb{R}^m$, but can do so in a way that reliably ranks reconstructed rows by their odds of appearing in the private data, providing a signature that could be used for prioritizing reconstructed rows for further actions such as identify theft or hate crime. We also design a sequence of baselines for evaluating reconstruction attacks. Our attacks significantly outperform those that are based only on access to a public distribution or population from which the private dataset $D$ was sampled, demonstrating that they are exploiting information in the aggregate statistics $Q(D)$, and not simply the overall structure of the distribution. In other words, the queries $Q(D)$ are permitting reconstruction of elements of this dataset, not the distribution from which $D$ was drawn. These findings are established both on 2010 U.S. decennial Census data and queries and Census-derived American Community Survey datasets. Taken together, our methods and experiments illustrate the risks in releasing numerically precise aggregate statistics of a large dataset, and provide further motivation for the careful application of provably private techniques such as differential privacy.
translated by 谷歌翻译
我们提供了一种差异化私有算法,用于同时生成多个任务的合成数据:边际查询和多任务机器学习(ML)。我们算法中的一个关键创新是能够直接处理数值特征的能力,与许多相关的先验方法相反,这些方法需要首先通过{binning策略}将数值特征转换为{高基数}分类特征。为了提高准确性,需要较高的分子粒度,但这会对可伸缩性产生负面影响。消除对套在一起的需求使我们能够产生合成数据,以保留大量统计查询,例如数值特征的边际和条件线性阈值查询。保留后者意味着在特定半空间上方的每个类标记的点的比例在实际数据和合成数据中都大致相同。这是在多任务设置中训练线性分类器所需的属性。我们的算法还使我们能够为混合边缘查询提供高质量的合成数据,这些数据结合了分类和数值特征。我们的方法始终比最佳可比技术快2-5倍,并在边缘查询和混合型数据集的线性预测任务方面提供了显着的准确性改进。
translated by 谷歌翻译
计量经济学和机器学习中的各种问题,包括仪器变量回归和钟声残留最小化,可以表达为满足一组条件矩限制(CMR)。我们得出了满足CMR的一般游戏理论策略,该策略可扩展到非线性问题,可与基于梯度的优化相提并论,并且能够考虑有限的样本不确定性。我们恢复了Dikkala等人的方法。和Dai等。作为我们一般框架的特殊情况,请先详细介绍各种扩展,以及如何有效地解决CMR定义的游戏。
translated by 谷歌翻译
我们考虑模仿学习问题,在这些问题中,专家可以在演示时间和测试时间内访问学习者隐藏的每个集合上下文。尽管学习者可能无法通过考虑整个国家和行动的历史来早期在情节中准确地重现专家行为,但他们可能最终能够识别上下文并像专家一样行事。我们证明,与非政策的方法相比,在政策模仿学习算法(有或不访问可查询的专家)都可以更好地处理这些渐近性问题,并且能够避免闩锁行为(对过去的动作的天真重复)这困扰着后者。我们在玩具匪徒域中进行实验,该实验表明,与统一的policy方法的均匀性能相比,非政策方法是否能够渐近地匹配专家的性能。我们证明,在几个连续的控制任务上,政策方法能够使用历史记录来识别上下文,而在访问历史记录时,违反政策方法实际上表现较差。
translated by 谷歌翻译
虽然差异隐私的应用(DP)在联合学习(FL)方面进行了充分研究,但考虑到跨索洛FL的DP缺乏工作,该设置的特征是有限数量的客户,每个客户都包含许多人数据主体。在跨索洛fl中,由于现实世界中的隐私法规,通常涉及核心数据主体,而不是孤岛本身,因此客户级隐私的通常概念不太适合。在这项工作中,我们相反,考虑了更现实的孤岛特定项目级隐私的概念,其中筒仓为当地示例设定了自己的隐私目标。在这种情况下,我们重新考虑了个性化在联合学习中的作用。特别是,我们表明,均值进行的多任务学习(MR-MTL)是一个简单的个性化框架,是跨索洛FL的强大基准:在更强的隐私下,孤岛进一步激励彼此“联合”以互相“联合”减轻DP噪声,相对于标准基线方法,导致一致的改进。我们为竞争方法以及MR-MTL的理论表征提供了一项彻底的经验研究,以实现平均估计问题,从而突出了隐私与跨核数据异质性之间的相互作用。我们的工作旨在为私人跨索洛FL建立基准,并确定该领域未来工作的关键方向。
translated by 谷歌翻译
研究人员和从业人员如何处理隐私 - 实用性权衡之间存在脱节。研究人员主要是从隐私的第一角度运作,设定严格的隐私要求并最大程度地限制受这些约束的风险。从业者通常希望获得准确的第一视角,可能会对他们可能获得足够小的错误的最大隐私感到满意。 Ligett等。已经引入了一种“降噪”算法来解决后一种观点。作者表明,通过添加相关的拉普拉斯噪声并逐步减少其需求,可以产生一系列越来越准确的私人参数估计值,而仅以最低噪声介绍的方式支付隐私成本。在这项工作中,我们将降噪概括为高斯噪声的设置,并引入了布朗机制。布朗机制首先添加与模拟布朗运动的最后点相对应的高方差的高斯噪声。然后,根据从业人员的酌情决定权,通过沿着布朗的路径追溯到较早的时间来逐渐降低噪音。我们的机制更自然地适用于有限的$ \ ell_2 $ - 敏感性的共同设置,从经验上优于公共统计任务上的现有工作,并在与从业者的整个交互中提供了对隐私损失的可自定义控制。我们通过简化的Brownian机制来补充我们的布朗机制,这是对提供自适应隐私保证的经典座位算法的概括。总体而言,我们的结果表明,人们可以达到公用事业的限制,同时仍保持强大的隐私水平。
translated by 谷歌翻译
我们研究了分层数据集的差异私有合成数据生成的问题,其中各个数据点被分组在一起(例如,家庭中的人)。特别是,为了衡量合成数据集和基础私有数据集之间的相似性,我们在私人查询发布问题下构架了我们的目标,生成了一个合成数据集,该数据集可为某些查询收集(即统计数据统计数据,如平均汇总计数)保留答案。 。但是,尽管对私人合成数据的应用在查询释放问题中的应用进行了充分的研究,但此类研究仅限于非层次数据域,提出了最初的问题 - 在考虑这种形式的数据时,哪些查询很重要?此外,尚未确定如何在捕获此类统计数据的同时,如何在组和个体级别上生成合成数据。鉴于这些挑战,我们首先正式化了层次查询发行的问题,其中的目标是为某些层次数据集发布统计数据集。具体而言,我们提供了一组一般的统计查询,这些查询捕获了组和个体级别的属性之间的关系。随后,我们引入了私人合成数据算法,以进行层次查询发布,并在美国社区调查和Allegheny家庭筛查工具数据的层次数据集上进行评估。最后,我们研究了美国社区调查,其固有的层次结构产生了我们进行的另一组特定领域的查询。
translated by 谷歌翻译
在线模仿学习是如何最好地访问环境或准确的模拟器的问题的问题。先前的工作表明,在无限的样本制度中,匹配的确切力矩达到了与专家政策的价值等效性。但是,在有限的样本制度中,即使没有优化错误,经验差异也会导致性能差距,该差距以$ h^2 / n $的行为克隆缩放,在线时刻$ h / \ sqrt {n} $匹配,其中$ h $是地平线,$ n $是专家数据集的大小。我们介绍了重播估算的技术以减少这种经验差异:通过反复在随机模拟器中执行缓存的专家动作,我们计算了一个更平滑的专家访问分布估算以匹配的。在存在一般函数近似的情况下,我们证明了一个元定理,可以减少离线分类参数估计误差的方法差距(即学习专家策略)。在表格设置或使用线性函数近似中,我们的元定理表明,我们方法产生的性能差距达到了最佳$ \ widetilde {o} \ left(\ min(\ min({h^h^{3/2}}}} / {n} ,{h} / {\ sqrt {n}} \ right)$依赖关系,在与先前的工作相比明显弱的假设下。我们在多个连续的控制任务上实施了多个方法的多次实例化,并发现我们能够显着提高策略绩效跨各种数据集尺寸。
translated by 谷歌翻译
在联邦学习中,对受保护群体的公平预测是许多应用程序的重要限制。不幸的是,先前研究集团联邦学习的工作往往缺乏正式的融合或公平保证。在这项工作中,我们为可证明的公平联合学习提供了一个一般框架。特别是,我们探索并扩展了有限的群体损失的概念,作为理论上的群体公平方法。使用此设置,我们提出了一种可扩展的联合优化方法,该方法在许多群体公平限制下优化了经验风险。我们为该方法提供收敛保证,并为最终解决方案提供公平保证。从经验上讲,我们评估了公平ML和联合学习的共同基准的方法,表明它可以比基线方法提供更公平,更准确的预测。
translated by 谷歌翻译